Clip skip
プロンプトを画像に反映するため、テキストの特徴量への変換を行うのがCLIP(Text Encoder)です。Stable DiffusionではCLIPの最後の層の出力を用いていますが、それを最後から二番目の層の出力を用いるよう変更できます。NovelAIによると、これによりより正確にプロンプトが反映されるようになるとのことです。 まとめby Claude.icon
CLIPモデル
レイヤー構成になっている
例えば、レイヤー1が「人」だと、レイヤー2が「男性」「女性」に分かれ、「男性」を選んだ場合レイヤー3が「男」「少年」「父親」「祖父」などに分かれる
CLIP Skip
CLIPモデルは12レイヤー構成
CLIP Skipを使うことで、text embeddingsのレイヤーを飛ばし、結果をより一般的にすることができる
CLIP SkipはCLIPモデルやその派生モデルでのみ機能する
OpenCLIPを使用する2.0モデルでは機能しない